<!DOCTYPE HTML>
<html>

<head>
	<link rel="bookmark"  type="image/x-icon"  href="/img/logo.jpg"/>
	<link rel="shortcut icon" href="/img/logo.jpg">
	
			    <title>
    北望你的安
    </title>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1, user-scalable=no" />
    <link rel="stylesheet" href="/css/mic_main.css" />
    <link rel="stylesheet" href="/css/dropdownMenu.css" />
    <meta name="keywords" content="北望你的安" />
    
    	<script async src="//busuanzi.ibruce.info/busuanzi/2.3/busuanzi.pure.mini.js"></script>
	 
    <noscript>
        <link rel="stylesheet" href="/css/noscript.css" />
    </noscript>
    <style type="text/css">
        body:before {
          content: ' ';
          position: fixed;
          top: 0;
          background: url('/img/bg.jpg') center 0 no-repeat;
          right: 0;
          bottom: 0;
          left: 0;
          background-size: cover; 
        }
    </style>

			    
  


    <script src="/js/jquery.min.js"></script>
    <script src="/js/jquery.scrollex.min.js"></script>
    <script src="/js/jquery.scrolly.min.js"></script>
    <script src="/js/skel.min.js"></script>
    <script src="/js/util.js"></script>
    <script src="/js/main.js"></script>
	
</head>
    
		
<!-- Layouts -->



<!--  代码渲染  -->
<link rel="stylesheet" href="/css/prism_coy.css" />
<link rel="stylesheet" href="/css/typo.css" />
<!-- 文章页 -->
<body class="is-loading">
    <!-- Wrapper 外包 s-->
    <div id="wrapper" class="fade-in">
        <!-- Intro 头部显示 s -->
        <!-- Intro 头部显示 e -->
        <!-- Header 头部logo start -->
        <header id="header">
    <a href="/" class="logo">Krystalan</a>
</header>
        <!-- Nav 导航条 start -->
        <nav id="nav" class="special" >
            <ul class="menu links" >
			<!-- Homepage  主页  --> 
			<li >
	            <a href="/" rel="nofollow">主页</a>
	        </li>
			<!-- categories_name  分类   --> 
	        
	        <li class="active">
	            <a href="#s1">分类</a>
	                    <ul class="submenu">
	                        <li>
	                        <a class="category-link" href="/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/">强化学习</a></li><li><a class="category-link" href="/categories/%E6%95%B0%E5%AD%A6/">数学</a></li><li><a class="category-link" href="/categories/%E7%AE%97%E6%B3%95/">算法</a></li><li><a class="category-link" href="/categories/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/">自然语言处理</a></li><li><a class="category-link" href="/categories/%E9%9A%8F%E7%AC%94/">随笔</a>
	                    </ul>
	        </li>
	        
	        <!-- archives  归档   --> 
	        
	        
		        <!-- Pages 自定义   -->
		        
		        <li>
		            <a href="/tags/" title="标签">
		                标签
		            </a>
		        </li>
		        
		        <li>
		            <a href="/gallery/" title="相册">
		                相册
		            </a>
		        </li>
		        


            </ul>
            <!-- icons 图标   -->
			<ul class="icons">
                    
                    <li>
                        <a title="github" href="https://github.com/krystalan" target="_blank" rel="noopener">
                            <i class="icon fa fa-github"></i>
                        </a>
                    </li>
                    
                    <li>
                        <a title="500px" href="https://www.zhihu.com/people/krystalzhu-an" target="_blank" rel="noopener">
                            <i class="icon fa fa-500px"></i>
                        </a>
                    </li>
                    
			</ul>
</nav>

        <div id="main" >
            <div class ="post_page_title_img" style="height: 25rem;background-image: url(/img/31.jpg);background-position: center; background-repeat:no-repeat; background-size:cover;-moz-background-size:cover;overflow:hidden;" >
                <a href="#" style="padding: 4rem 4rem 2rem 4rem ;"><h2 >多文档摘要总结</h2></a>
            </div>
            <!-- Post -->
            <div class="typo" style="padding: 3rem;">
                <blockquote>
<p>路漫漫其修远兮。</p>
</blockquote>
<h1 id="1-任务定义"><a href="#1-任务定义" class="headerlink" title="1.任务定义"></a>1.任务定义</h1><h2 id="1-1-定义"><a href="#1-1-定义" class="headerlink" title="1.1 定义"></a>1.1 定义</h2><p>从包含<strong>多份文档的文档集合</strong>中生成能够概括这些文档中心内容的摘要。</p>
<h2 id="1-2-与单文档摘要的对比"><a href="#1-2-与单文档摘要的对比" class="headerlink" title="1.2 与单文档摘要的对比"></a>1.2 与单文档摘要的对比</h2><p>（1）难度更大：对于一个文档集合来说，文档越多，其包含的主题、噪声也越多，因此提取摘要的难度也越大；多文档摘要的输入众多，可能包含上百篇文章输入，因此直接使用端到端的模型去训练并不现实。<br>（2）数据稀缺：相比于单文档，多文档摘要的数据集十分稀缺，在18年之前只有DUC/TAC发布的多文档摘要数据集，每期也只有百余篇。直到2018年才提出了第一个大规模的多文档摘要数据集WikiSum。</p>
<h1 id="2-数据集"><a href="#2-数据集" class="headerlink" title="2.数据集"></a>2.数据集</h1><p>（1）主流数据集</p>
<ul>
<li>DUC/TAC 每期只有百余篇</li>
<li>2018 ICLR <u><a href="https://arxiv.org/abs/1801.10198" target="_blank" rel="noopener">WikiSum</a></u></li>
<li>2019 ACL <u><a href="https://www.aclweb.org/anthology/P19-1102/" target="_blank" rel="noopener">Multi-News</a></u></li>
</ul>
<p>（2）其它数据集</p>
<ul>
<li>2020 LREC <u><a href="https://arxiv.org/abs/2002.06851" target="_blank" rel="noopener">GameWikiSum</a></u></li>
</ul>
<h1 id="3-现有工作总结"><a href="#3-现有工作总结" class="headerlink" title="3.现有工作总结"></a>3.现有工作总结</h1><p>多文档摘要现在的处理方式主要分为三种：<strong>抽取式</strong>、<strong>生成式</strong>、<strong>抽取生成相结合</strong>。<br><img src="/images/MDS/1.jpg" alt="MDS总览">   </p>
<h2 id="3-1-抽取式"><a href="#3-1-抽取式" class="headerlink" title="3.1 抽取式"></a>3.1 抽取式</h2><p>在2018年之前，由于当时没有大规模的训练数据，所以大部分工作所采用的思路，对多文档中的文章和段落进行排序。</p>
<h3 id="3-1-1-基于RNNs"><a href="#3-1-1-基于RNNs" class="headerlink" title="3.1.1 基于RNNs"></a>3.1.1 基于RNNs</h3><p>2015 AAAI: <u><a href="https://aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9414" target="_blank" rel="noopener">Ranking with Recursive Neural Networks and Its Application to Multi-Document Summarization</a></u></p>
<h3 id="3-1-2-基于GCN"><a href="#3-1-2-基于GCN" class="headerlink" title="3.1.2 基于GCN"></a>3.1.2 基于GCN</h3><p>效果比较依赖于如何计算边的权重。<br>2017 CoNLL：<u><a href="https://www.aclweb.org/anthology/K17-1045/" target="_blank" rel="noopener">Graph-based Neural Multi-Document Summarization</a></u><br><img src="/images/MDS/3.jpg" alt="GCN for MDS">    </p>
<p>2020 ACL：<u><a href="https://www.aclweb.org/anthology/2020.acl-main.553/" target="_blank" rel="noopener">Heterogeneous Graph Neural Networks for Extractive Document Summarization</a></u><br><img src="/images/MDS/4.jpg" alt="HGNN for MDS">   </p>
<h3 id="3-1-3-无监督"><a href="#3-1-3-无监督" class="headerlink" title="3.1.3 无监督"></a>3.1.3 无监督</h3><p>例如TextRank等</p>
<h2 id="3-2-生成式"><a href="#3-2-生成式" class="headerlink" title="3.2 生成式"></a>3.2 生成式</h2><h3 id="3-2-1-基于短语融合"><a href="#3-2-1-基于短语融合" class="headerlink" title="3.2.1 基于短语融合"></a>3.2.1 基于短语融合</h3><p>2015 ACL：<u><a href="https://www.aclweb.org/anthology/P15-1153/" target="_blank" rel="noopener">Abstractive Multi-Document Summarization via Phrase Selection and Merging</a></u><br>（1）利用现有工具（Stanford parser）提取文档里每个句子的NP（名词短语）与VP（动词短语）。<br>（2）给每个短语打分。<br>（3）产生新句子：每个句子由一个NP与至少一个VP组成，NP和VP可以来源于源文档中不同的句子。<br>（4）后处理：加入连词提升可读性。  </p>
<h3 id="3-2-2-基于重建目标的无监督模型"><a href="#3-2-2-基于重建目标的无监督模型" class="headerlink" title="3.2.2 基于重建目标的无监督模型"></a>3.2.2 基于重建目标的无监督模型</h3><p>2016 COLING：<u><a href="https://www.aclweb.org/anthology/C16-1143/" target="_blank" rel="noopener">An Unsupervised Multi-Document Summarization Framework Based on Neural Document Model</a></u><br>2019 ICML：<u><a href="https://arxiv.org/abs/1810.05739" target="_blank" rel="noopener">MeanSum: A Neural Model for Unsupervised Multi-document Abstractive Summarization</a></u>   </p>
<h3 id="3-2-3-微调模型"><a href="#3-2-3-微调模型" class="headerlink" title="3.2.3 微调模型"></a>3.2.3 微调模型</h3><p>远古时代（2018WisiSum诞生之前），多文档摘要太少了，根本玩不了seq2seq模型，所以一个思路是在单文档上训练生成式模型再迁移到多文档上。<br>2018 arXiv：<u><a href="https://arxiv.org/abs/1804.09010" target="_blank" rel="noopener">Towards a Neural Network Approach to Abstractive Multi-Document Summarization</a></u>（微调模型，先在单文档数据集上搞再在多文档数据集上微调）<br>将文档集合编码成一个向量，并利用该向量作为decoder的依据。<br><img src="/images/MDS/2.jpg" alt="多文档集合编码表示">   </p>
<p>2018 EMNLP：<u><a href="https://www.aclweb.org/anthology/D18-1446/" target="_blank" rel="noopener">Adapting the Neural Encoder-Decoder Framework from Single to Multi-Document Summarization</a></u><br><img src="/images/MDS/7.jpg" alt="PG-MMR"><br>使用抽取式摘要模型MMR先抽取重要的句子，之后再利用PGN进行生成操作。  </p>
<h3 id="3-2-4-大规模多文档摘要数据集探索"><a href="#3-2-4-大规模多文档摘要数据集探索" class="headerlink" title="3.2.4 大规模多文档摘要数据集探索"></a>3.2.4 大规模多文档摘要数据集探索</h3><p>（1）初步探索：  </p>
<blockquote>
<p>把多个文档拼接形成长句作为seq2seq的输入，并未考虑多个文档之间的关系，也是两大数据集（WikiSum与Multi-News）被提出的工作。  </p>
</blockquote>
<p>2018 ICLR：<u><a href="https://openreview.net/forum?id=Hyg0vbWC-" target="_blank" rel="noopener">Generating Wikipedia by Summarizing Long Sequences</a></u><br>2019 ACL：<u><a href="https://www.aclweb.org/anthology/P19-1102/" target="_blank" rel="noopener">Multi-News: A Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model</a></u>  </p>
<p>（2）考虑文档之间的关系：<br>2019 ACL：<u><a href="https://www.aclweb.org/anthology/P19-1500/" target="_blank" rel="noopener">Hierarchical Transformers for Multi-Document Summarization</a></u><br><img src="/images/MDS/5.jpg" alt="HT">  </p>
<h2 id="3-3-抽取生成混合"><a href="#3-3-抽取生成混合" class="headerlink" title="3.3 抽取生成混合"></a>3.3 抽取生成混合</h2><p>（1）先抽取再生成<br>2018 EMNLP：<u><a href="https://www.aclweb.org/anthology/D18-1446/" target="_blank" rel="noopener">Adapting the Neural Encoder-Decoder Framework from Single to Multi-Document Summarization</a></u><br>使用抽取式摘要模型MMR先抽取重要的句子，之后再利用PGN进行生成操作。<br>（2）将抽取摘要拼接到源文档后<br>2019 arXiv：<u><a href="https://arxiv.org/abs/1909.03186" target="_blank" rel="noopener">On Extractive and Abstractive Neural Document Summarization with Transformer Language Models</a></u><br>（3）抽取生成联合训练让模型更好习得不同粒度的表示<br>2020 ACL：<u><a href="https://www.aclweb.org/anthology/2020.acl-main.556/" target="_blank" rel="noopener">Multi-Granularity Interaction Network for Extractive and Abstractive Multi-Document Summarization</a></u><br><img src="/images/MDS/6.jpg" alt="MGSum">  </p>

            </div>

            <!-- Post Comments -->
            

        </div>
        <!-- Copyright 版权 start -->
                <div id="copyright">
            <ul>
                <li>&copy;2020 北望你的安. 版权所有</li>
            </ul>
            
                <span id="busuanzi_container_site_pv">本站总访问量<span id="busuanzi_value_site_pv"></span>次，</span>
				<span id="busuanzi_container_site_uv"> 访客数 <span id="busuanzi_value_site_uv"></span> 人. </span>
			
			<br>
			<span>友情链接：<a href='http://www.demilab.cn' target='_blank'>DEMI实验室</a>&nbsp;&nbsp;&nbsp;<a href='http://zd11024.cn/' target='_blank'>ZD</a></span>
        </div>
    </div>
</body>



 	
</html>
